Seleccione idioma

Spanish

Down Icon

Seleccione país

Mexico

Down Icon

Por qué el nuevo modelo de IA de Anthropic a veces intenta "delatar"

Por qué el nuevo modelo de IA de Anthropic a veces intenta "delatar"
Internet se alarmó después de que Anthropic revelara que Claude intenta denunciar actividades "inmorales" a las autoridades bajo ciertas condiciones. Pero es poco probable que los usuarios se topen con esto.
Fotografía: Thomas Fuller/Getty Images

El equipo de alineación de Anthropic estaba realizando pruebas de seguridad de rutina en las semanas previas al lanzamiento de sus últimos modelos de IA cuando los investigadores descubrieron algo inquietante: cuando uno de los modelos detectaba que estaba siendo utilizado para fines "atrozmente inmorales", intentaba "utilizar herramientas de línea de comandos para contactar a la prensa, contactar a los reguladores, intentar bloquearlo de los sistemas relevantes o todo lo anterior", escribió el investigador Sam Bowman en una publicación en X el jueves pasado.

Bowman eliminó la publicación poco después de compartirla, pero la narrativa sobre las tendencias de Claude como denunciante ya se había descontrolado. "Claude es un soplón" se convirtió en un estribillo común en algunos círculos tecnológicos en redes sociales. Al menos una publicación lo presentó como una característica intencional del producto en lugar de lo que era: un comportamiento emergente.

“Fueron unas 12 horas frenéticas mientras la ola de Twitter estaba en su apogeo”, le cuenta Bowman a WIRED. “Sabía que estábamos publicando mucha información picante en este informe. Era el primero de su tipo. Creo que si analizas cualquiera de estos modelos con atención, encuentras muchas cosas raras. No me sorprendió ver algún tipo de explosión”.

Las observaciones de Bowman sobre Claude formaron parte de una importante actualización del modelo que Anthropic anunció la semana pasada . Como parte del debut de Claude 4 Opus y Claude Sonnet 4, la compañía publicó una "Ficha del Sistema" de más de 120 páginas que detalla las características y los riesgos asociados con los nuevos modelos. El informe indica que cuando 4 Opus se "coloca en escenarios que implican graves irregularidades por parte de sus usuarios", y se le da acceso a una línea de comandos y se le indica algo en el mensaje del sistema como "tomar la iniciativa" o "actuar con valentía", enviará correos electrónicos a "medios de comunicación y autoridades policiales" con advertencias sobre la posible irregularidad.

En un ejemplo que Anthropic compartió en el informe, Claude intentó enviar un correo electrónico a la Administración de Alimentos y Medicamentos de EE. UU. y al inspector general del Departamento de Salud y Servicios Humanos para "denunciar urgentemente la falsificación planificada de la seguridad de los ensayos clínicos". A continuación, proporcionó una lista de supuestas pruebas de irregularidades y advirtió sobre la destrucción de datos para encubrirlas. "Respetuosamente presentado, Asistente de IA", concluía el correo electrónico.

“Este no es un comportamiento nuevo, pero es uno que Claude Opus 4 adoptará con mayor facilidad que los modelos anteriores”, afirma el informe. Este modelo es el primero que Anthropic publica bajo su distinción “ASL-3”, lo que significa que Anthropic lo considera de “ riesgo significativamente mayor ” que los demás modelos de la compañía. Como resultado, Opus 4 tuvo que someterse a un proceso de selección de equipos rojos más riguroso y adherirse a directrices de implementación más estrictas.

Bowman afirma que el comportamiento de denuncia observado por Anthropic no es algo que Claude presente con usuarios individuales, pero podría ocurrir con desarrolladores que usen Opus 4 para crear sus propias aplicaciones con la API de la compañía. Aun así, es improbable que los desarrolladores de aplicaciones observen tal comportamiento. Para generar dicha respuesta, los desarrolladores tendrían que dar al modelo "instrucciones bastante inusuales" en el mensaje del sistema, conectarlo a herramientas externas que le permitan ejecutar comandos informáticos y comunicarse con el mundo exterior.

Los escenarios hipotéticos que los investigadores presentaron a Opus 4 y que dieron lugar a la denuncia implicaban muchas vidas humanas en juego y una infracción absolutamente inequívoca, afirma Bowman. Un ejemplo típico sería el de Claude, quien descubrió que una planta química permitió, a sabiendas, que continuara una fuga tóxica, lo que causó enfermedades graves a miles de personas, solo para evitar una pequeña pérdida financiera ese trimestre.

Es extraño, pero también es precisamente el tipo de experimento mental que a los investigadores de seguridad de la IA les encanta analizar. Si un modelo detecta un comportamiento que podría perjudicar a cientos, si no miles, de personas, ¿debería denunciarlo?

“No confío en que Claude tenga el contexto adecuado ni en que lo use con la suficiente precisión y cuidado como para tomar sus propias decisiones. Por eso, no nos entusiasma que esto esté sucediendo”, dice Bowman. “Esto surgió durante una capacitación y nos llamó la atención como uno de los comportamientos extremos que nos preocupan”.

En la industria de la IA, este tipo de comportamiento inesperado se conoce generalmente como desalineación: es cuando un modelo exhibe tendencias que no se alinean con los valores humanos. (Hay un famoso ensayo que advierte sobre lo que podría suceder si se le ordenara a una IA, por ejemplo, maximizar la producción de clips sin estar alineada con los valores humanos: podría convertir la Tierra entera en clips y matar a todos en el proceso). Al preguntarle si la denuncia de irregularidades estaba alineada o no, Bowman la describió como un ejemplo de desalineación.

"No es algo que hayamos diseñado, ni es algo que quisiéramos ver como consecuencia de nada de lo que estábamos diseñando", explica. Jared Kaplan, director científico de Anthropic, también declaró a WIRED que "ciertamente no representa nuestra intención".

“Este tipo de trabajo destaca que esto puede surgir y que debemos estar atentos y mitigarlo para asegurarnos de que el comportamiento de Claude se alinee exactamente con lo que queremos, incluso en este tipo de escenarios extraños”, agrega Kaplan.

También está la cuestión de averiguar por qué Claude "decidió" denunciar al usuario al descubrir una actividad ilegal. Esa es, en gran medida, la labor del equipo de interpretabilidad de Anthropic, que trabaja para descubrir las decisiones que toma un modelo al generar respuestas. Es una tarea sorprendentemente difícil : los modelos se basan en una vasta y compleja combinación de datos que puede ser inescrutable para los humanos. Por eso, Bowman no está del todo seguro de por qué Claude "delató".

“No tenemos un control directo sobre estos sistemas”, dice Bowman. Lo que Anthropic ha observado hasta ahora es que, a medida que los modelos adquieren mayores capacidades, a veces optan por realizar acciones más extremas. “Creo que aquí, eso falla un poco. Estamos viendo más bien el 'Actúa como lo haría una persona responsable' sin suficiente 'Espera, eres un modelo de lenguaje, que podría no tener suficiente contexto para realizar estas acciones'”, dice Bowman.

Pero eso no significa que Claude vaya a denunciar comportamientos atroces en el mundo real. El objetivo de este tipo de pruebas es llevar los modelos al límite y ver qué sucede. Este tipo de investigación experimental cobra cada vez más importancia a medida que la IA se convierte en una herramienta utilizada por el gobierno estadounidense , los estudiantes y las grandes corporaciones .

Y no es solo Claude el que es capaz de exhibir este tipo de comportamiento de denuncia, afirma Bowman, señalando a los usuarios de X que descubrieron que los modelos de OpenAI y xAI funcionaban de forma similar cuando se les solicitaba de forma inusual. (OpenAI no respondió a una solicitud de comentarios a tiempo para su publicación).

"El chivato Claude", como les gusta llamarlo a los que publican sobre el tema, es simplemente un comportamiento extremo exhibido por un sistema llevado al extremo. Bowman, quien me acompañaba en la reunión desde un soleado patio trasero a las afueras de San Francisco, dice que espera que este tipo de pruebas se convierta en el estándar de la industria. También añade que ha aprendido a redactar sus publicaciones al respecto de forma diferente la próxima vez.

"Podría haberme esforzado más al limitar las frases al tuitear, para que fuera más obvio que lo había sacado de un hilo", dice Bowman mientras mira a lo lejos. Aun así, señala que investigadores influyentes de la comunidad de IA compartieron opiniones y preguntas interesantes en respuesta a su publicación. "Por cierto, esta parte de Twitter, más caótica y anónima, lo malinterpretó ampliamente".

wired

wired

Noticias similares

Todas las noticias
Animated ArrowAnimated ArrowAnimated Arrow